皮尔逊相关系数 - 快速入门

By Ruben Geert van den Berg under Correlation & Statistics A-Z

皮尔逊相关系数(Pearson correlation coefficient)是一个介于 -1 和 +1 之间的数值,它表示两个变量之间线性相关的程度。皮尔逊相关系数也称为“积矩相关系数”(Product Moment Correlation Coefficient, PMCC)或简称为“相关系数”(correlation)。

皮尔逊相关系数仅适用于定量变量(quantitative variables,包括 二分变量 )。

相关系数 - 示例

我们询问了 40 位自由职业者在 2010 年至 2014 年的年收入。部分原始数据如下所示。

相关系数 - 数据视图

今天的问题是:2010 年的收入与 2011 年的收入之间是否存在关系? 找到答案的一个好方法是检查这两个变量的 散点图:我们将每个自由职业者用一个点表示。 每个点的水平和垂直位置表示自由职业者在 2010 年和 2011 年的收入。 结果如下所示。

皮尔逊相关系数 - 收入散点图

我们的散点图显示了 2010 年和 2011 年收入之间的密切关系:2010 年收入较低的自由职业者(最左边的点)通常 2011 年的收入也较低(较低的点),反之亦然。 此外,这种关系大致是线性的; 点的主要模式是一条直线。 点位于直线上的程度表明了关系的强度。 皮尔逊相关系数是一个表示这种关系的确切强度的数字。

相关系数和散点图

相关系数表示散点图中的点位于直线上的程度。 这意味着我们通常可以通过散点图来准确地估计相关性。 下图很好地说明了这一点。

皮尔逊相关系数 - 多个散点图

相关系数 - 基础

前面的图很好地说明了相关系数的一些基本点。 你至少应该知道:

  • 相关系数永远不低于 -1。 相关系数为 -1 表示散点图中的数据点完全位于一条向下倾斜的直线上; 两个变量呈完全负线性相关。
  • 相关系数为 0 表示两个变量之间没有任何线性关系。 但是,两个变量之间可能存在一些非线性关系。
  • 相关系数永远不高于 1。 相关系数为 1 表示两个变量呈完全正线性相关; 散点图中的点完全位于一条向上倾斜的直线上。

相关系数 - 完美线性关系

相关系数 - 解释注意事项

在解释相关性时,您应该记住一些事情。 详细的讨论值得单独的教程,但我们将简要地提及两个要点。

  • 相关性可能表明也可能不表明因果关系。 反之,从某个变量到另一个变量的因果关系可能导致也可能不会导致两个变量之间的相关性。
  • 相关性对异常值非常敏感; 单个异常观察值可能会对相关性产生巨大影响。 通过快速检查散点图可以轻松检测到此类异常值。

相关系数 - 软件

大多数电子表格编辑器(如 ExcelGoogle sheetsOpenOffice )都可以为您计算相关性。 下图显示了 Google sheets 中的一个示例。

Google Sheet 中的相关系数

相关系数 - 相关矩阵

请记住,相关性适用于成对的变量。 如果您对 2 个以上的变量感兴趣,您可能需要查看所有不同变量对之间的相关性。 这些相关性通常显示在一个称为相关矩阵(correlation matrix)的方表中。 统计软件包(如 SPSS )可以在您眨眼之前创建相关矩阵。 示例如下所示。

相关系数 - SPSS 相关矩阵

请注意,对角线元素(红色)是每个变量与其自身之间的相关性。 这就是为什么它们总是 1。 另请注意,对角线下方的相关性(灰色)是多余的,因为它们与对角线上方的相关性相同。 从技术上讲,我们说这是一个对称矩阵。 最后,请注意相关性的模式是完全有意义的:只要这些年份相距更远,年度收入之间的相关性就会降低。

皮尔逊相关系数 - 公式

如果我们想检查相关性,我们将让计算机为我们计算它们。 你很少(可能永远不会)需要实际的公式。 但是,为了完整起见,变量 X 和 Y 之间的皮尔逊相关系数按以下公式计算:

\[r_{XY} = \frac{\sum_{i=1}^n(X_i - \overline{X})(Y_i - \overline{Y})}{\sqrt{\sum_{i=1}^n(X_i - \overline{X})^2}\sqrt{\sum_{i=1}^n(Y_i - \overline{Y})^2}}\]

该公式基本上归结为将 协方差 除以标准差的乘积。 由于系数是一个数除以另一个数,因此我们的公式显示了为什么我们说相关系数

相关性 - 统计显著性

我们可用的数据通常(但并非总是)是来自更大总体的的小样本。 如果是这样,即使在总体中为零,我们也可能在样本中找到一个非零相关性。 下图说明了这种情况是如何发生的。

散点图显示总体相关性为零时的样本相关性

如果我们忽略颜色,则此散点图中的所有 1,000 个点都会可视化某个总体。 检验 1 和检验 2 之间的总体相关性(用 ρ 表示)为零。 现在,我们可以从这个总体中抽取一个 N = 20 的样本,其中相关性 r = 0.95。 反之,这意味着 0.95 的样本相关性并不能确定地证明整个总体中存在非零相关性。 但是,如果 ρ = 0,则找到 r = 0.95 且 N = 20 是极不可能的。 但究竟有多不可能? 我们怎么知道?

相关性 - 检验统计量

如果 ρ(总体相关性)为零,则给定样本相关性(其 统计显著性 )的概率取决于样本大小。 因此,我们将样本大小和 r 组合成一个数字,即我们的检验统计量 t:

\[T = R\sqrt{\frac{(n - 2)}{(1 - R^2)}}\]

现在,T 本身并不有趣。 但是,我们需要它来找到某个相关性的显著性水平。 T 服从自由度为 ν = n - 2 的 t 分布,但前提是满足某些假设。

相关性检验 - 假设

皮尔逊相关系数的统计显著性检验需要 3 个假设:

  • 独立的观测值(independent observations);
  • 总体相关性,ρ = 0
  • 正态性(normality):所涉及的 2 个变量在总体中呈二元正态分布。 但是,对于合理的样本大小(例如,N ≥ 20 左右),则不需要这样做。 原因是 中心极限定理

皮尔逊相关系数 - 抽样分布

在我们的示例中,样本大小 N 为 20。 因此,如果我们满足我们的假设,则 T 服从 df = 18 的 t 分布,如下所示。

皮尔逊相关系数 - DF = 18 的 T 分布

该分布告诉我们,有 95% 的概率 -2.1 < t < 2.1,对应于 -0.44 < r < 0.44。 结论:如果 N = 20,则有 95% 的概率找到 -0.44 < r < 0.44。 只有 5% 的概率会找到超出此范围的相关性。 也就是说,此类相关性在 α = 0.05 或更低时 具有统计显著性 :它们(非常)不太可能,因此反驳了总体相关性为零的零假设。 最后,我们 0.95 的样本相关性的 p 值为 1.55e-10 - 六十四亿六千七百三十三万四千六百五十四分之一。 我们可以放心地得出结论,我们的整个总体中存在非零相关性。

感谢阅读!